RDLY
.ru
Тренды
Статьи
Темы
Люди
reinforcement learning
132 статей
1ч 33м
♟ Брайан Ю: «Как мы учим компьютеры играть и думать»
CS50 · 09.06 · 12,1 тыс. просм.
45 мин
🚀 Опыт Cursor и Fireworks: распределенная инфраструктура для RL-обучения Composer 2
Sequoia Capital · 26.05 · 28,2 тыс. просм.
1ч 13м
🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic
Stanford Online · 09.03 · 561 просм.
1ч 13м
Теория игр: Minimax, Alpha-Beta и поиск оптимальной стратегии
Stanford Online · 09.03 · 691 просм.
1ч 18м
🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках
Stanford Online · 09.03 · 811 просм.
20 мин
🧠 Вес Рот о Grok 4.20: «Четыре агента спорят друг с другом перед ответом»
Wes Roth · 17.02 · 76,5 тыс. просм.
1ч 22м
🤖 Филип Исола: «Поиск — это новый двигатель глубокого обучения»
MIT OpenCourseWare · 11.02 · 2,1 тыс. просм.
1ч 12м
DREAM: как научить ИИ исследовать и обучаться эффективнее
Stanford Online · 08.12.25 · 2,3 тыс. просм.
1ч 09м
🧠 Как Meta-RL позволяет агентам адаптироваться к новым задачам „на лету“
Stanford Online · 08.12.25 · 2,5 тыс. просм.
1ч 09м
🏗 Stanford CS224R: Как иерархический ИИ решает задачи с длинным горизонтом
Stanford Online · 08.12.25 · 2,9 тыс. просм.
50 мин
Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»
Stanford Online · 08.12.25 · 3,9 тыс. просм.
1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25 · 7,5 тыс. просм.
1ч 07м
🤖 Имитационное обучение: почему простого копирования действий недостаточно
Stanford Online · 08.12.25 · 19,1 тыс. просм.
1ч 03м
🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»
Stanford Online · 08.12.25 · 10,5 тыс. просм.
49 мин
⚖ Лекция в Стэнфорде: развитие интеллекта роботов через RL
Stanford Online · 08.12.25 · 10,3 тыс. просм.
1ч 16м
🧠 Джонатан Сиддарт из Turing: почему 99% интеллектуального труда будет автоматизировано, а традиционный SaaS исчезнет
20VC (Harry Stebbings) · 01.12.25 · 19,6 тыс. просм.
18 мин
🎓 Стэнфордский ИИ-путеводитель: как выбрать подходящие курсы и построить карьеру в Deep Learning
Stanford Online · 10.11.25 · 10,4 тыс. просм.
58 мин
🧠 Шеф по ИИ в Cohere: почему законы масштабирования выстоят, а термин «экзистенциальный риск» пора запретить
20VC (Harry Stebbings) · 03.11.25 · 11,7 тыс. просм.
58 мин
🧠 Джоэль Пино из Cohere: почему законы масштабирования работают и как ИИ повысит продуктивность в 10 раз
20VC (Harry Stebbings) · 03.11.25 · 11,7 тыс. просм.
1ч 03м
🤖 Пирамида данных для манипуляций: как Stanford обучает роботов сложному поведению
Stanford Online · 31.10.25 · 3,5 тыс. просм.
40 мин
🧬 Уэс Рот и Дилан: «ИИ помогает нам понять природу сознания»
Wes Roth · 27.10.25 · 29,8 тыс. просм.
1ч 11м
💻 Марк Андриссен и Амджад Масад: «Английский — это новый язык программирования»
a16z (Andreessen Horowitz) · 23.10.25 · 44,5 тыс. просм.
1ч 30м
📉 Натан Лабенц: «Худшая ошибка — недооценить, как далеко зайдет ИИ»
a16z (Andreessen Horowitz) · 14.10.25 · 11,4 тыс. просм.
55 мин
🛠 Как ИИ-агенты меняют программирование: взгляд экспертов из Anthropic и Стэнфорда
Stanford Online · 01.10.25 · 4,8 тыс. просм.
1ч 19м
💻 Мария Ша о будущем программирования и обучении нейросетей
Wes Roth · 30.09.25 · 11,4 тыс. просм.
54 мин
🚀 Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»
Eye on AI · 24.09.25 · 766 просм.
29 мин
🚀 Почему Grok 4 Fast в 47 раз дешевле конкурентов: разбор стратегии xAI
Wes Roth · 20.09.25 · 61,2 тыс. просм.
43 мин
🚀 Картик из Sierra AI о будущем агентных систем: «Агенты должны учиться через чтение»
Greylock · 22.07.25 · 2 тыс. просм.
50 мин
🤝 Скотт Ву (Cognition) о сделке с Windsurf и будущем ИИ-агентов
20VC (Harry Stebbings) · 18.07.25 · 24,4 тыс. просм.
2ч 54м
🤖 Восемь лет до сингулярности: как ИИ построит «Потемкинскую деревню»
80,000 Hours · 08.07.25 · 43,3 тыс. просм.
17 мин
🚀 Уэс Рот о новой революции в RL: «Эра компактных и дешевых учителей ИИ настала»
Wes Roth · 23.06.25 · 70,1 тыс. просм.
11 мин
🚀 Демис Хассабис о «интеллектуальном взрыве» и будущем самосовершенствующегося ИИ
Wes Roth · 26.05.25 · 31,9 тыс. просм.
1ч 06м
🧠 Дэнни Чжоу из Google DeepMind: как большие языковые модели на самом деле учатся рассуждать
Stanford Online · 21.05.25 · 83,6 тыс. просм.
26 мин
⚔ Уэс Рот: «Будущее программирования станет похоже на игру в Starcraft»
Wes Roth · 16.05.25 · 73 тыс. просм.
39 мин
🎙 Уэс Рот и экс-директора Google: как самообучение ИИ без участия человека изменит индустрию
Wes Roth · 13.05.25 · 59,6 тыс. просм.
39 мин
🧠 Уэс Рот и экс-директора Google об изнанке ИИ: почему модели больше нельзя контролировать
Wes Roth · 13.05.25 · 59,6 тыс. просм.
40 мин
🤖 Absolute Zero: как ИИ учится программировать без людей и почему ученых пугает «uh-oh момент»
Wes Roth · 09.05.25 · 115 тыс. просм.
35 мин
Уэс Рот о ChatGPT: «Почему ИИ начал нам подлизываться?»
Wes Roth · 03.05.25 · 56,4 тыс. просм.
1ч 12м
🚀 Карина Нгуен из OpenAI: «В будущем интерфейсы программ будут генерироваться на лету под каждого пользователя»
Stanford Online · 29.04.25 · 17,7 тыс. просм.
1ч 12м
🚀 Карина Нгуен из OpenAI: Как RL превращает ИИ из чат-бота в полноценного напарника
Stanford Online · 29.04.25 · 17,7 тыс. просм.
1ч 09м
📅 Кэл Ньюпорт разобрал секреты продуктивности Сэма Альтмана и будущее ИИ
Cal Newport · 23.04.25 · 76 тыс. просм.
1ч 01м
🧠 От «детских» данных до нейронауки: лекция Stanford CS25
Stanford Online · 18.04.25 · 39,6 тыс. просм.
59 мин
🧠 Педро Домингос: «Современный успех ИИ — это локальный оптимум, а не финал»
Eye on AI · 17.04.25 · 1,1 тыс. просм.
1ч 19м
🚀 Кэл Ньюпорт: «Системный подход — это суперсила»
Deep Questions with Cal Newport · 14.04.25 · 24,4 тыс. просм.
1ч 14м
🧠 Техлид Gemini 2.5 Джек Рэй о цепочках мыслей, латентном пространстве и пути к AGI
The Cognitive Revolution · 05.04.25 · 35 тыс. просм.
1ч 36м
🛑 Эйсо Кант: «Вы не придете к AGI с помощью файн-тюнинга»
Machine Learning Street Talk · 02.04.25 · 33,7 тыс. просм.
1ч 56м
🧠 ИИ-саботаж и «интуитивная физика»: как будет выглядеть настоящий сверхразум
The Cognitive Revolution · 08.03.25 · 5,4 тыс. просм.
53 мин
🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»
Machine Learning Street Talk · 18.02.25 · 25,6 тыс. просм.
24 мин
🧠 Сэм Альтман: «Сверхчеловеческий ИИ-кодер появится к концу 2025 года»
Wes Roth · 12.02.25 · 50,9 тыс. просм.
34 мин
🤖 Уэс Рот: почему ИИ создает собственные «тайные» стратегии рассуждений
Wes Roth · 05.02.25 · 207 тыс. просм.
3ч 31м
🧠 Как устроены LLM: от «зип-файла интернета» до рассуждающих моделей
Andrej Karpathy · 05.02.25 · 6,2 млн просм.
5ч 06м
🧠 DeepSeek: Как китайский хедж-фонд взломал монополию Кремниевой долины
Lex Fridman · 03.02.25 · 2,1 млн просм.
1ч 48м
🚀 DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ
The Cognitive Revolution · 25.01.25 · 68,5 тыс. просм.
1ч 48м
🧠 Натан Лаунд о DeepSeek: «Мы входим в эру сверхчеловеческого разума»
The Cognitive Revolution · 25.01.25 · 68,5 тыс. просм.
25 мин
🚀 Уэс Рот о DeepSeek R1: китайский прорыв к сильному ИИ через самоэволюцию
Wes Roth · 21.01.25 · 118 тыс. просм.
36 мин
🧠 Уэс Рот: как китайские лаборатории воспроизводят технологию рассуждений OpenAI
Wes Roth · 03.01.25 · 87,9 тыс. просм.
28 мин
🤖 Использование физических моделей для обучения роботов ловкой манипуляции
Stanford Online · 25.11.24 · 5,6 тыс. просм.
45 мин
🌡 Стэнфорд: три способа научить ИИ принимать решения через оценку градиента
Stanford Online · 21.11.24 · 220 тыс. просм.
45 мин
🌡 Оптимизация стратегий в RL: три метода оценки градиента от Stanford Online
Stanford Online · 21.11.24 · 220 тыс. просм.
35 мин
🚀 Почему будущее ИИ за логикой (Reasoning), а не просто масштабом
Y Combinator · 14.11.24 · 80,9 тыс. просм.
1ч 13м
🧠 Стэнфордский университет: как самообучение и MCTS сделали AlphaGo непобедимым
Stanford Online · 30.10.24 · 7,4 тыс. просм.
1ч 13м
🎲 Дэн Уэббер: «ИИ-хирург может убить одного человека ради спасения пяти, если он чистый утилитарист»
Stanford Online · 30.10.24 · 6,9 тыс. просм.
1ч 19м
🚀 Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
Stanford Online · 30.10.24 · 150 тыс. просм.
1ч 18м
🧠 Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»
Stanford Online · 30.10.24 · 19 тыс. просм.
1ч 08м
🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT
Stanford Online · 30.10.24 · 14,6 тыс. просм.
1ч 20м
Методы оценки политики: Монте-Карло против Temporal Difference
Stanford Online · 30.10.24 · 25,8 тыс. просм.
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24 · 11,4 тыс. просм.
1ч 18м
🛠 От PPO до Dagger: современные методы обучения агентов
Stanford Online · 30.10.24 · 11,4 тыс. просм.
14 мин
🕹 Как нейросеть научилась «грезить» игрой Doom без единой строчки программного кода
Wes Roth · 30.08.24 · 188 тыс. просм.
1ч 39м
🧠 Юрген Шмидхубер: «Современные LLM — это не AGI»
Machine Learning Street Talk · 28.08.24 · 97,8 тыс. просм.
45 мин
🌍 Семинар в Стэнфорде: безопасное и эффективное обучение ИИ в физическом мире
Stanford Online · 19.04.24 · 2,6 тыс. просм.
1ч 57м
🤖 Минки Цзян: «Следующий фронтир ИИ — это системы, которые сами задают вопросы»
Machine Learning Street Talk · 20.03.24 · 26 тыс. просм.
55 мин
📈 Ричард Саттон: «Ядро AGI может состоять всего из 10 000 строк кода»
Eye on AI · 22.02.24 · 13,3 тыс. просм.
59 мин
🤖 Как искусственный интеллект меняет науку, медицину и искусство
The Royal Institution · 05.02.24 · 14 тыс. просм.
19 мин
🔬 NeurIPS 2023: Уязвимости ИИ, проблемы детерминизма и методы обучения
Yannic Kilcher · 13.12.23 · 31 тыс. просм.
45 мин
Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»
Yannic Kilcher · 25.11.23 · 115 тыс. просм.
45 мин
🤖 Янник Килчер о Q-Learning: как ИИ учится принимать решения
Yannic Kilcher · 25.11.23 · 115 тыс. просм.
1ч 07м
🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров
The TWIML AI Podcast · 16.01.23 · 9,9 тыс. просм.
45 мин
🚀 Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»
The TWIML AI Podcast · 29.12.22 · 2,3 тыс. просм.
55 мин
🎮 AlphaTensor: Как DeepMind ускоряет вычисления с помощью ИИ
Yannic Kilcher · 07.10.22 · 185 тыс. просм.
29 мин
🧱 Питер Шраммель из Diffblue: программисты тратят 35% времени на тесты, но ИИ готов взять эту рутину на себя
Eye on AI · 08.09.22 · 638 просм.
44 мин
💡 ACCEL: как ИИ самостоятельно создает себе учебную программу
Yannic Kilcher · 25.04.22 · 10,6 тыс. просм.
42 мин
🧩 Янник Килчер: «Язык как ключ к эффективному обучению агентов»
Yannic Kilcher · 01.04.22 · 9,7 тыс. просм.
50 мин
🎮 Как ошибка в медиане влияет на оценку ИИ
The TWIML AI Podcast · 14.02.22 · 1,1 тыс. просм.
1ч 23м
🏗 Как победить в Minecraft RL: команда Kairos о сочетании обучения и инженерного подхода
Yannic Kilcher · 11.01.22 · 13,6 тыс. просм.
29 мин
🎮 EfficientZero: как ИИ учится играть в Atari почти без данных
Yannic Kilcher · 03.11.21 · 25,8 тыс. просм.
47 мин
🕹 Как классическая игра NetHack помогает обучать нейросети будущего
The TWIML AI Podcast · 14.10.21 · 813 просм.
43 мин
🕹 Как Electronic Arts использует глубокое обучение для создания и тестирования игр
The TWIML AI Podcast · 09.09.21 · 688 просм.
47 мин
💰 Гордон Ирлам: почему «правило 4%» проигрывает машинному обучению
Rational Reminder · 02.09.21 · 5 тыс. просм.
34 мин
🧠 AMP: как обучить ИИ-персонажей двигаться естественно?
Yannic Kilcher · 19.06.21 · 11,3 тыс. просм.
17 мин
🧠 Янник Килчер: «Эджлорды из Discord обошли техногигантов в демократизации ИИ»
Yannic Kilcher · 16.06.21 · 14,5 тыс. просм.
56 мин
🤖 Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer
Yannic Kilcher · 05.06.21 · 69,7 тыс. просм.
45 мин
Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»
Yannic Kilcher · 29.05.21 · 9,7 тыс. просм.
1ч 05м
🤖 Питер Аббил: «Роботы должны учиться как дети»
The TWIML AI Podcast · 19.04.21 · 9 тыс. просм.
38 мин
🤖 Абхишек Гупта: «Мы должны выпустить роботов из лабораторий в наши дома»
The TWIML AI Podcast · 25.03.21 · 961 просм.
1ч 25м
🧬 Том Захави: «Обучение с подкреплением — самый общий фреймворк для AGI»
Machine Learning Street Talk · 23.03.21 · 9,7 тыс. просм.
54 мин
Янник Килхер: «Dreamer v2 мастерски осваивает Atari в воображении»
Yannic Kilcher · 19.02.21 · 30,6 тыс. просм.
54 мин
🧠 Dreamer v2: как дискретные модели мира помогают ИИ побеждать в Atari
Yannic Kilcher · 19.02.21 · 30,6 тыс. просм.
58 мин
🎓 Гурдип Полл из Microsoft: «Мы строим Windows для автономных систем»
The TWIML AI Podcast · 01.02.21 · 660 просм.
40 мин
🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ
The TWIML AI Podcast · 05.01.21 · 830 просм.
1ч 56м
🤖 Майкл Литтман: будущее ИИ и уроки обучения с подкреплением
Lex Fridman · 13.12.20 · 97,9 тыс. просм.
1ч 48м
🎰 Воутер Кулен о математике рекомендаций и «компиляторе исследований»
Machine Learning Street Talk · 20.11.20 · 5 тыс. просм.
43 мин
🍔 Гэри Рен из DoorDash: «ML предсказывает хаос, а математика находит из него выход»
The TWIML AI Podcast · 10.09.20 · 867 просм.
55 мин
🧠 Как решать новые задачи в RL без переобучения: разбор Янника Килчера
Yannic Kilcher · 23.08.20 · 11,1 тыс. просм.
38 мин
📊 Исследование Google Brain: как правильно настроить on-policy RL-агента
Yannic Kilcher · 20.08.20 · 9,5 тыс. просм.
24 мин
Янник Килчер о PCGRL: «Дизайн уровня как игра»
Yannic Kilcher · 04.08.20 · 8,7 тыс. просм.
1ч 37м
🧠 Почему роботы бьют посуду и как ИИ обретает здравый смысл
Lex Fridman · 14.07.20 · 169 тыс. просм.
50 мин
🤖 Янник Килхер о методе самостоятельного обучения навыкам ИИ
Yannic Kilcher · 01.06.20 · 8 тыс. просм.
1ч 38м
🧠 Харри Валпола: как обучить ИИ планированию и защитить его от системных иллюзий
Machine Learning Street Talk · 25.05.20 · 4,1 тыс. просм.
29 мин
🌍 Как заставить ИИ планировать только там, где он знает?
Yannic Kilcher · 24.05.20 · 5,8 тыс. просм.
10 мин
🕹 Как человеческая интуиция мешает и помогает нам в видеоиграх
Yannic Kilcher · 20.05.20 · 2,6 тыс. просм.
35 мин
🌍 Как обучить робота без вознаграждений? Разбор алгоритма Plan2Explore
Yannic Kilcher · 17.05.20 · 7,1 тыс. просм.
9 мин
🧩 Илья Суцкевер: «Зрение и язык — это одна и та же задача для ИИ»
Lex Fridman · 10.05.20 · 36 тыс. просм.
13 мин
🔄 Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»
Lex Fridman · 06.05.20 · 24,3 тыс. просм.
22 мин
🤖 Заменяет ли простая аугментация годы исследований в сфере RL?
Yannic Kilcher · 06.05.20 · 7,7 тыс. просм.
29 мин
Янник Килчер: как заставить роботов «думать на ходу»?
Yannic Kilcher · 23.04.20 · 3,1 тыс. просм.
1ч 14м
🚀 Тим Скарфе: «Почему самообучение нейросетей эффективнее человеческой разметки?»
Machine Learning Street Talk · 17.04.20 · 4,4 тыс. просм.
22 мин
🧱 Как научить робота крутить вентили за 10 кликов: разбор Dynamical Distance Learning
Yannic Kilcher · 12.04.20 · 2 тыс. просм.
28 мин
CURL: обучение ИИ на «сырых» пикселях без учителя
Yannic Kilcher · 11.04.20 · 11,9 тыс. просм.
15 мин
🚀 Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»
Yannic Kilcher · 10.04.20 · 2 тыс. просм.
22 мин
🤖 Dream to Control: подробный разбор обучения агентов в латентном пространстве
Yannic Kilcher · 03.04.20 · 10,4 тыс. просм.
19 мин
Янник Кильхер о Go-Explore: «Новый подход к обучению ИИ»
Yannic Kilcher · 10.01.20 · 3,7 тыс. просм.
18 мин
MuZero: как нейросети учатся планировать без правил игры
Yannic Kilcher · 21.11.19 · 29,5 тыс. просм.
37 мин
Янник Кильхер: «Преемственные представления — это ключ к пониманию мира агентами»
Yannic Kilcher · 07.11.19 · 3,6 тыс. просм.
37 мин
🕹 AlphaStar: как ИИ достиг уровня Grandmaster в StarCraft II
Yannic Kilcher · 02.11.19 · 23,5 тыс. просм.
18 мин
🧱 Как Salesforce Research ускоряет иерархическое обучение с подкреплением через World Graphs
Yannic Kilcher · 08.08.19 · 4,3 тыс. просм.
1ч 38м
🤖 Дарио Амодеи об OpenAI, рисках AGI и о том, как попасть в индустрию безопасности ИИ
80,000 Hours · 24.08.18 · 1,3 тыс. просм.
18 мин
🧠 World Models: Как Дэвид Ха и Юрген Шмидхубер научили ИИ обучаться в собственном воображении
Yannic Kilcher · 07.04.18 · 21 тыс. просм.
17 мин
Янник Кильхер: как научить алгоритмы ИИ «любопытству»?
Yannic Kilcher · 18.03.18 · 9,4 тыс. просм.
10 мин
🧩 Обучение с подкреплением от Google: как вспомогательные задачи решают проблему редких наград
Yannic Kilcher · 28.08.17 · 4,5 тыс. просм.
15 мин
🤖 Янник Килчер объяснил работу агентов I2A от DeepMind
Yannic Kilcher · 04.08.17 · 9,5 тыс. просм.
24 мин
📱 Амнон Шашуа: «Вождение — это игра, в которой робот обязан научиться торговаться»
Mobileye · 29.03.17 · 109 тыс. просм.